Vamos investigar a existência de tipos de filmes quanto a idade dos personagens e a quantidade de palavras que eles falam, para cada gênero de personagem (femino e masculino). Será que existem grupos que definem comportamentos comuns para os filmes analisados? Por exemplo: será que mulheres mais velhas falam mais que as mulheres mais novas? Ou será que os homens falam mais que as mulheres? Essas são apenas algumas interrogações que nos vem a mente e que podem surgir como resultado de grupos de filmes.

Dimensões escolhidas para análise

Antes de escolher as dimensões foi necessário realizar um merge dos dados e filtrar alguns dados que continham campos nulos ou vazios, como a idade dos personagens.

Foram escolhidas quatro variáveis numéricas para realizar a análise, que foram calculadas a partir do conjunto de dados. São elas: mediana da idade de personagens do sexo feminino no filme (age_f), mediana de palavras dos personagens do sexo feminino no filme (words_f), mediana da idade de personagens do sexo masculino no filme (age_m), mediana de palavras dos personagens do sexo masculino no filme (words_m).

O conjunto de dados submetido a análise contém, para cada filme, uma observação com valores para cada variável mencionada acima.

Agrupamento multidimensional utilizado k-means

O valor de k

Para realizar o agrupamento, antes precisamos escolher um bom valor para k, onde k indica basicamente o número de grupos que iremos identificar no conjunto de dados. Uma medida muito usada no k-means é comparar a distância (quadrática) entre o centro dos clusters e o centro dos dados com a distância (quadrática) entre os pontos todos nos dados e o centro dos dados. Quando essa medida parar de crescer, significa que não vale à pena aumentar o k.

Ao observar o gráfico acima percebemos que o melhor valor de k para o nosso caso seria 4, já que apartir de 4 a medida que mencionamos acima começa a parar de crescer.

Agrupando os dados em 4 grupos

Observando o gráfico acima e olhando a direção em que as linhas dos filmes cruzam e tocam cada uma das variáveis ou coordenadas podemos observar grupos que caracterizam os filmes que ali cabem.

Redução de dimensionalidade usando PCA (Análise de Componentes Principais)

Analisando quanta variância cada PC captura:

No gráfico acima podemos observar que quando reduzimos as quatro variáveis para duas conseguimos capturar 65% da variância dos dados.

Logo abaixo podemos ver a visualização 2D da redução de dimensionalidade das 4 dimensões mencionadas anteriormente.

Descrição e interpretação da redução

PC1 e PC2 são as duas variáveis criadas para substituir as 4 variáveis originais de antes da visualização. PC1 e PC2 são úteis se conseguirmos entender a relação delas com as variáveis originais. Na técnica denominada PCA, cada uma dessas novas variáveis é calculada a partir das 4 iniciais.

Observando o gráfico, age_m e age_f variam quando um ponto está mais à direita ou esquerda no gráfico (direção de PC1), mas não variam muito em função da posição de um ponto no eixo vertical (direção de PC2). Já words_f e words_m estão mais relacionada com PC2, enquanto age_m e age_f praticamente não estão.

Seguindo a mesma leitura, words_f e words_m variam principalmente na medida que os pontos estão mais acima ou abaixo no gráfico (PC2), mas também em função de quão à esquerda ou direita eles estão.

Outra forma de ver a informação que o gráfico mostra é vendo PC1 e PC2 como duas funções das 4 variáveis originais, vejamos abaixo.

##   PC      age_f      age_m    words_f    words_m
## 1  1  0.6505657  0.6481060 -0.2882244 -0.2713846
## 2  2 -0.2783180 -0.2812107 -0.6443512 -0.6544243

Os valores na tabela são os coeficientes, e a leitura é que:

PC1 = 0.650age_f + 0.648age_m - 0.288words_f − 0.271words_m e PC2 = - 0.278age_f - 0.281age_m - 0.644words_f - 0.654words_m.

Em PC1, mudar uma unidade nas 2 primeiras variáveis aumenta PC1 e faz com que um ponto esteja mais à direita no gráfico. Já words_f e words_m têm efeito negativo e de menor efeito por unidade do que as duas primeiras. A unidade aqui é em z-scores: todas as variáveis foram normalizadas com scale antes da redução de dimensionalidade, para que seu efeito ficasse comparável.

Em PC2, mudar uma unidade nas 4 variáveis diminui PC2 e faz com que um ponto esteja mais à cima ou abaixo no gráfico.

Correlação entre as variáveis e os PCs

As variáveis age_m e age_f são muito correlacionadas e as duas são componentes principais para trazer informação para PC1, por isso, PC1 é explicado em função dessas 2 variáveis. Como words_m e words_f não trazem muita informação para PC1, o método PCA cria PC2 que vai ser representado por estas duas variáveis que são menos correlacionadas com as demais, porém muito correlacionadas entre si. Da mesma forma,a união words_m e words_f trazem muita informação para PC2.

Interpretação dos grupos presentes na visualização

Podemos entender que existem 4 grupos de filmes segundo as 4 variáveis que usamos.

O grupo 1 é caracterizado por conter a maior parte dos personagens com idades abaixo da média, para ambos os sexos. Já com relação a quantidade de palavras ditas não percebe-se uma diferença muito significatica. Poderíamos nomear esse grupo como: “Os novinhos”.

O grupo 2 é caracterizado por conter personagens com idades bem variadas, para ambos os sexos. Já com relação a quantidade de palavras ditas percebe-se que os homens falam mais que as mulheres. Poderíamos nomear esse grupo como: “Homens tagarelas”.

O grupo 3 é caracterizado por conter a maior parte dos personagens do sexo feminino com idades abaixo da média. Já com relação a quantidade de palavras ditas percebe-se que as mulheres falam mais que os homens, o oposto do grupo anterior. Poderíamos nomear esse grupo como: “As novinhas tagarelas”.

O grupo 4 é caracterizado por conter a maior parte dos personagens do sexo feminino com idades acima da média. Já com relação a quantidade de palavras ditas percebe-se que as mulheres falam um pouco menos que os homens. Poderíamos nomear esse grupo como: “Mulheres ‘maduras’ falam menos”.